Manifold Mixup: Better Representations by Interpolating Hidden States
どういうの?
無作為に選んだ層までは普通に計算して,その層の出力の複数をランダムに選んでMixup そのままその値を使って最終層まで計算&lossを計算し, 逆伝播
簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい
flatten=小さい部分空間で表現できるということなので, better
MNISTでのtoy-experimentでも実際に再現されていて, 具体的には中間層の出力$ \mathrm{\bm{X}} に対して特異値分解をして, 特異値を降順に並べたとき$ [1,N)の特異値の総和がManifold Mixupのみ減少したらしい 固有値を想起するとわかりやすい→一方向にだけ引っ張られてる=flatten
https://gyazo.com/36f01950b9eaae3b6a59568568d1b5a5